黃仁勳終於得到了他最想要的東西。本周美國政府正式批准輝達向中國以及其他“經批准的客戶”出售高端的H200 GPU晶片,但需要向美國政府繳納25%的銷售提成。這一提成比例同樣適用於AMD、英特爾等其他美國晶片巨頭。不過,輝達最新的Blackwell和未來的Rubin系列GPU仍然禁止出口。這標誌著黃仁勳長達數月的遊說取得成功。過去半年時間,他不斷造訪佛羅里達與華盛頓,隨著川普總統一道出訪和出席國宴,向白宮宴會廳建設工程捐款,就是為了這一刻。就在上周,他再一次來到白宮會見總統,終於如願以償得到瞭解鎖禁運令。受這一利多消息推動,輝達股價盤後應聲上漲。受美國政府連續多道晶片加碼禁運令限制,過去兩年時間,輝達一步步失去迅猛增長的中國市場,丟掉了在AI GPU市場原先高達95%的份額。在輝達最核心的資料中心業務,中國市場的營收佔比也從原先的四分之一急劇下滑。心急如焚的黃仁勳在兩個月前公開抱怨,“我們已經失去了全球最大的市場之一,在中國市場完全出局,市場份額已經歸零。”即便是向美國政府繳納四分之一的提成,對輝達的業績營收也意義重大,因為中國AI GPU今年規模估計高達200億-300億美元(中商產業研究院資料)。然而,黃仁勳在努力爭取重新打開另一個市場的時候,或許還要擔憂自己的後方。因為群狼已經圍上來了:他們最大的AI晶片客戶,Google、亞馬遜、微軟這三大巨頭,即Hyperscalers(超大規模雲服務商),正在加速普及自己的自研晶片。輝達無疑是生成式AI時代的領軍公司。在AI晶片這個兆級賽道中,輝達以壓倒的性能優勢和CUDA平台優勢佔據主導地位,其GPU 產品線幾乎壟斷了八成 以上的市場份額。輝達也因此成為全球最具價值的上市公司,市值甚至一度突破5兆美元。雖然輝達資料中心業務營收高達1300億美元(最近財年),但卻存在一個巨大隱患:客戶集中度過高,過度依賴於幾大AI巨頭。其中,前兩大客戶營收佔比39%,前三大客戶營收佔比高達53%。據媒體猜測,黃仁勳的前五大客戶正是:微軟、Google、亞馬遜、Meta和甲骨文。而這前三大巨頭正在加速轉用自研晶片,同時拉攏第四大客戶。這些自研晶片的部署,不僅會直接減少輝達的晶片訂單,更有可能在公開市場給輝達帶來威脅。AWS低成本推理殺手在上周拉斯維加斯召開的re:Invent年度開發者大會上,全球雲端運算市場的領頭羊亞馬遜AWS連續公佈了一系列重磅產品,清晰地展示了在AI熱潮中佔據市場主導以及推動行業潮流變化的雄心。最引人注目的當屬亞馬遜新一代自研 AI 晶片:Trainium 3。 諸多媒體將Trainium3 譽為“對輝達的直接宣戰”。這是亞馬遜自2022年以來的第三代AI晶片,主打低成本與推理兩大優勢。AWS CEO馬特·加曼(Matt Garman)宣佈,第三代晶片訓練速度比前代快 4 倍,成本減半, 特別適合亞馬遜Nova 2 模型家族的部署,支援百萬晶片級叢集。 與輝達相當的 GPU 系統相比Trainium3 可節省 50% 訓練費用。現場演示顯示,Trainium3 在 Llama 3.1 訓練中,僅需 24 小時完成相當於 H100 叢集一周的任務。低成本是最大的賣點,AWS官方將 Trainium3 定位為輝達GPU的低成本替代品。他們表示,對於願意採用其 Neuron軟體棧和 Trainium實例的客戶,基於 Trainium 的實例可以將大型模型的訓練成本(通常還包括推理成本)比同類GPU叢集可以降低高達約 50%。亞馬遜此次大會的諸多發佈相當於擺明態度:要用自研晶片、自研模型、私有化部署以及智能體全家桶,把從訓練到推理、從雲端到本地、從通用模型到定製模型的整條 AI 賽道都牢牢攥在自己手裡。雲端運算巨頭AWS擺明自研方向,這無疑會對AI基礎設施市場的未來走向帶來重大影響。目前AWS 在雲端運算市場仍保持巨大領先優勢,為大大小小的客戶提供雲端 AI 算力,支援他們自由選擇各種大模型。AWS目前的市場份額超過三成,而排名二三位的微軟與Google市場份額為20%與16%。(基於Synergy Research的統計資料)從Anthopic到OpenAI再到Meta,諸多AI巨頭與創業公司都在廣泛使用亞馬遜的AWS雲服務。就在上個月,OpenAI宣佈與AWS簽署合作協議,七年採購價值380億美元的AI基礎設施服務。AWS還強調,Anthropic等 AI 初創公司已轉向 Trainium,節省了超過三成的預算。Google拉到Meta大客戶Google是行業最早自研晶片的巨頭,其第一代TPU早在2016年發佈,已經成為AI基礎設施巨頭挑戰輝達的行業標竿。就在上個月,Google在他們的Cloud Next雲端運算大會上發佈第七代TPU v7 Ironwood,進一步讓輝達感受到了壓力。Ironwood 的核心亮點是性能躍升:單晶片 FP8 計算達4.6 PFLOPS(每秒 1000 兆次浮點計算),比 第五代TPU提升 10 倍,是第六代TPU的 4 倍。Google強調 Ironwood 專為“高吞吐、低延遲”推理最佳化,適用於 Gemini 3 等多模態模型。相比輝達王牌的Blackwell,Ironwood 在能效上領先 20%,功耗僅 300W/晶片。 這得益於其 systolic array架構和自訂互連,可以專攻矩陣乘法等 AI 核心運算。Google在TPU 的演進上穩步前進:從 v1 的純訓練晶片,到 v7 原生支援 FP8,Google已覆蓋從邊緣裝置(Edge TPU)到超大規模 Pod 的全端。從戰略上看,Google 的 TPU 不僅是硬體,更是雲生態的“殺手鐧”。對輝達來說,Google帶來的威脅已經日益明顯。2025 年,Google的 AI 晶片市場份額預計已經達到 8%, 尤其在佔 AI 算力 80% 的推理領域。SemiAnalysis 分析稱,Ironwood “顯著縮小了與 NVIDIA 旗艦的浮點計算性能差距”。Google聲稱,使用 TPU 可將訓練成本降 40%,吸引了 Meta 等第三方客戶。據媒體報導,Meta已經計畫在2027年部署GoogleTPU,繞過輝達的晶片。GoogleIronwood 伺服器將交由富士康代工。而Meta正是輝達AI晶片的第四大客戶。這一打擊是雙重的。雖然黃仁勳依然以樂觀口吻應對GoogleTPU帶來的威脅,強調輝達的多平台相容與供應鏈優勢,認為巨頭自研晶片不會動搖輝達的“護城河”(生態和軟體棧),但他也不得不承認市場競爭會讓投資者感到擔憂。微軟搶不過巨頭量產延誤相比亞馬遜和Google在自研晶片方面的穩步推進和大規模部署,微軟在這領域暫時還在交學費,遭受了跳票挫折。微軟自研晶片首代 Maia 100 於 2024 年推出,專為自家的Azure AI 最佳化,今年開始大規模部署。但原本計畫今年發佈的 Maia 200(代號 Braga)的大規模量產已經推遲至2026 年。今年10月,微軟宣佈 Maia 100 已部署於 Azure 資料中心,支援 OpenAI 模型訓練。 這是微軟與博通合作開發的晶片,預計比輝達的H100晶片成本低40%。而未來三代(代號分別為Braga、Braga-R 和 Cobalt)計畫覆蓋訓練、推理和邊緣。Maia晶片的最大優勢自然是與微軟Azure的原生態結合——整合 DirectML 框架,吸引企業客戶私有化部署。Maia 系列聚焦多模態 AI,例如突出微軟Copilot的語音和視覺處理,單晶片 BF16 性能達 2 PFLOPS。微軟CTO凱文·斯科特(Kevin Scott)表示,公司未來將“主要使用自家晶片”,目標減少對輝達晶片的嚴重依賴。但微軟的這一目標卻遭到了Maia量產推遲的打擊。根據媒體報導,Maia 200量產延誤主要是由於設計變更、模擬不穩定等技術與內部因素。但另一方面,台積電的產能瓶頸也是現實限制因素。畢竟台積電先進製程(如 N3/N2/高級封裝)目前是全球最搶手的生產能力,輝達、蘋果、AMD等巨頭客戶都在爭搶產能。產線幾乎被預定一空,排期非常緊張。台積電通常會根據訂單時間、技術節點、客戶戰略價值等進行安排。微軟既不是台積電的大客戶,自身晶片設計也沒有完善,只能排在後面的非優先順序。微軟想減少對輝達的依賴,這是戰略必要,但晶片從設計到大規模量產之間仍有長期供應鏈競爭。在台積電那裡產能搶不過晶片巨頭,微軟只能轉向英特爾的18A節點,計畫在明年實現量產。這一延誤給微軟帶來了巨大的額外開支。如果Maia二代不能及時規模部署,微軟明年可能還要投入100億美元購買輝達晶片。性能vs成本巔峰對決雖然目前輝達依然在AI 晶片領域佔據絕對話語權,但 三大巨頭的自研浪潮正給市場帶來巨大變數。2025 年Google、亞馬遜和微軟先後發佈的最新自研晶片,預示著 2026 年將是一場“性能 vs. 成本”的巔峰對決。性能技術依然是輝達的核心優勢,Google微軟亞馬遜的自研晶片都只能強調成本優勢。輝達今年的Blackwell 架構B200 GPU,單晶片 FP8 計算能力達 20 PFLOPS(每秒千兆次浮點運算),比前代 H100 提升 4 倍。在推理任務中,Blackwell的能效比GoogleTPU 高出 30%,這得益於其先進的 NVLink 互聯技術和 Transformer 引擎最佳化。黃仁勳對此充滿信心,正如在 GTC 2025 大會上宣稱:“我們的 GPU 領先競爭對手整整一代。”這種領先不僅體現在峰值性能,還包括軟體棧的深度整合:CUDA 平台支援 4000 多個 AI 框架和庫,開發者生態龐大到“開箱即用”。這才是輝達的真正護城河。相比之下,AI巨頭們的自研晶片往往需額外適配,增加了開發者的遷移成本。但成本卻是AI巨頭自研晶片的最大賣點。亞馬遜Trainium3 已宣稱可將訓練成本降至前代的 50%, Google Ironwood TPU 在推理任務中,能效比輝達H100 高出 20-30%。進入 2026 年,這一差距將進一步拉大。此外,AI巨頭正通過“漸進式”策略蠶食輝達的CUDA優勢。Google的JAX 和 PyTorch/XLA 整合已覆蓋 70% AI 工作負載, AWS Neuron SDK 支援 Llama 和 Stable Diffusion 等開源模型, 而 微軟的DirectML 則無縫嵌入 Visual Studio,吸引企業開發者。亞馬遜AWS 計畫在 Trainium4 上整合 NVLink 相容技術,實現與 輝達GPU 的無縫混合部署,預計訓練費用再降 40%。 與此同時,2027年商用的GoogleTPU v8將引入光子互聯和更先進的 systolic array 架構,針對多模態模型如 Gemini 4 的推理最佳化,成本優勢或達 50% 以上。四分之一市場份額亞馬遜的目標是在明年達到50%的自研佔比,推動AWS在 AI 雲市場的份額從 31% 升至 35%。他們是Anthropic的最大投資者和雲服務商。因此Anthropic的大模型訓練主要靠AWS Trainium晶片。而GoogleTPU 的市場份額更是已悄然攀升至 8%。他們從今年開始向外部客戶積極銷售原先自用的TPU,目前的外部銷售佔比已經達到了20%。隨著2027年Meta轉用TPU,輝達將真正感受到Google帶來的競爭壓力。今年10月,Anthropic與Google簽署了價值數百億美元的協議,計畫使用多達100萬片TPU,其中包括40萬片Ironwood,其餘通過Google雲租賃。換句話說,現在AI大模型公司都在推動晶片多元化,儘可能同時使用多家晶片,而不是只依賴於輝達GPU。黃仁勳傳記作者、非常瞭解輝達的史蒂芬·維特(Stephen Witt)認為,“輝達最大的風險顯然是Google,如果Google證明他們可以用自家晶片維持領先AI開發,那麼這將給其他巨頭樹立榜樣。”即便加緊部署自研晶片,這些巨頭也會未來幾年繼續採購輝達。一個值得體會的細節是,Google和亞馬遜在發佈自研晶片時,都會提前通知輝達,因為他們希望繼續維持與輝達的良好關係,繼續保證自己的晶片供應。未來這些巨頭自研晶片會達到多少份額?黃仁勳的直接競爭對手、AMD CEO蘇姿丰對GoogleTPU給出了非常高的評價。“多年來,Google在 TPU 架構上做得很好。但 TPU 是一種更偏向特定用途的設計,它缺乏 GPU 所具備的可程式設計性、模型靈活性,以及訓練與推理能力之間的平衡。GPU 將高度平行架構與高可程式設計性相結合,從而能夠實現快速創新。”“從我們的角度來看,各種類型的加速器都有空間。然而,在未來五年內,GPU 仍將明顯佔據市場大部分份額,因為我們仍處於行業周期的早期階段,軟體開發者希望擁有實驗新演算法的靈活性。因此,給 ASIC 類加速器(三大巨頭的自研晶片都是)留出 20%–25% 的市場份額是合理的。”換句話說,她認為三大巨頭的自研晶片可能在未來奪走四分之一的市場 份額。而且,蘇姿丰還計畫AMD在未來3-5年,搶到兩位數的市場份額。以及,輝達在中國市場同樣要面臨華為、寒武紀等本土競爭對手。 (新浪科技)